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The invention concerns 
a method which consists 
in carrying out a spectral 
subtraction comprising: a 
first subtraction step taking 
into account^ the maximised 
estimations {B\i) of the noise 
spectral components, so as 
to obtain spectral components 
{fmA of a flist enhanced 
signal: computing a masking 
curve (M«^) by applying an 
auditory perception model 
based on the first enhanced 
signal spectral components; 
and a second subtraction step 
which consists In subtracting 
respectively, from each specnal 
component of the speech 
signal on the frame, a quantity 
depending on die parameters 
including a variation between 

.ll^JTil!— csUmation of the corresponding spectral component of die noise and the computed masking curve. A transform towards die 
time donuun uf applied to die result of die subtiacUon to construct an enhanced speech signal. 



FRANCE 
FREQUENCY 



09/25/2003. EAST Version: 1.04.0000 



(57) AMg« 




Signal d^bniit^i et une seconde tope de soustniccion dans laquelle on souunit lespeetivement, de chaque composante spectrale du sianal 
de parole sur la trame. une quantity dependant de paiamtoes incluant un 6cait entie rescimation nuyoite de la composante spec&ale 
conwpondantc du bniit et la courbe de masquage calculfo. On applique au rtsultat de la sousmcdon specinle une tnmfonnation vers le 

domamc temporei pour conatniire un signal de parole d6bniii£. w"»uwn 
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PROCEDE DE DERmTTT^^^ d>un SIGHAL Dg PAROLE NlJMERTnrTr 

La pr6sente invention concerne les techniques 
nunt^riques de d6bruitage de signaux de parole. EUe 
concerne plus particuli6rement le d6bruitage par 
soustraction spectrale non lin6aire. 

Du fait de la generalisation des nouvelles fbrmes 
de communication, en particulier des t616phones mobiles 
les communications se font de plus en plus dans del 
amoiances fortement bruit6es. Le bruit, additionn6 ^ la 
parole, a alors tendance A perturber les communications en 
empechant une compression cptimale du signal de oaroio et 
en creant un bruit de fond non naturel. D' autre* part,' le 
bruxt rend difficile et fatigante la comprehension du 
nessage parle. 

De nombreux algorithmes ont 6t6 6tudi6s pour 
essayer de diminuer les effets du bruit dans une 
communication. S. F. Boll («Suppression of acoustic noise 
in speech using spectral subtraction », IEEE Trans, on 
Acoustics, Speech and Signal Processing Vol. assp-27 
n 2, avril 1979) a propos6 un algorithms bas6 sur la 
soustraction spectrale. Cette technique consists d estimer 
le spectre du bruit pendant les phases de silence et 4 le 
soustraire du signal recu. EUe permet une reduction du 
niveau de bruit regu. Son principal defaut est de cr6er un 
bruit musical particuli^rement g^nant, car non naturel. 

Ces travaux, repris et am61ior6s par D. b. Paul 
(«The spectral enveloppe estimation vocoder., ieee 

IssT29°' fT"'"' ^P^*^^ Signal Processing », Vol. 

ASSP-29, n 4, aoQt 1981) et par P. Lockwood et J. Boudy 

hLT'TT" "'"^ " -orAinear spectral subtracter ,NSS), 
Hidden Markov Models and the projection, for robust speech 
Recognition in cars », Speech Communication, Vol. li, juin 
1992, pages 215-228, et EP-A-0 534 837) ont permis de 
diminuer sensiblement le niveau de bruit tout en lui 
conservant un caract.re naturel. De plus, cette 
contribution a eu le m.rite d'incorporer pour la premi.re 
foxs le principe de masquage dans le calcul du filtre de 
d^bruitage. A partir de cette id6e, une premiere tentative 
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a 6te faite par S. Nandkumar et J. H. L. Hansen (« Speech 
enhancement on a new set of auditory constrained 
parameters », Proc. ICASSP 94, pages 1. 1-1.4) pour 
utiiiser dans la soustraction spectrale des courbes de 
5 masquage calcuUes expiicitement . Malgr6 les r6sultats 
d6cevants de cette technique, cette contribution a eu le 
mSrite de mettre 1' accent sur 1' importance de ne pas 
denaturer le signal de parole pendant le debruitage. 

D'autres m6thodes bashes sur la d6composition du 
signal de parole en valeurs singulieres, et done sur une 
projection du signal de parole dans un espace plus r6duit 
cnt et§ 6tudiees par Bart De Moore (« The singular value 
decomposition and long and short spaces of ndisy 
matrices », IEEE Trans, on Signal Processing, Vol. 41 n« 
9, septembre 1993, pages 2826-2838) et par S, .H. Jensen et 
al (« Reduction of broad-band noise in speech by truncated 
QSVD^», IEEE Trans, on Speech and Audio Processing, Vol 
3, n 6, novenbre 1995). Le principe de cette technique 
est de consid6rer le signal de parole et le signal de 
bruit comme totalement decorreUs, et de consid6rer que le 
signal de parole a une pr6dictibilit6 suffisante pour 6tre 
pr6dit a partir d'un jeu restreint de param6tres. Cette 
technique permet d'obtenir un debruitage acceptable pour 
, des signaux fortement voises, mais denature totalement le 
25 signal de parole. Face 4 un bruit relativement coherent 
tel que celui provoqu6 par le contact de pneus de voitures 
ou le cliquetis d'un moteur, le bruit peut s'av6rer plus 
facilement pr^dictible que le signal de parole non vois6. 
On a alors tendance A projeter le signal de parole dans 
une partie de 1' espace vectoriel du bruit. La m6thode ne 
tient pas compte du signal de parole, en particulier des 
zones de parole non voisSe oti la pr6dictibilit6 est 
reduits. De plus, pr6dire le signal de parole A partir 
d un 3eu de paramfetres rSduit ne permet pas de prendre en 
compte toute la richesse intrins^que de la parole. On 
comprend ici les limites de techniques bas6es uniquement 
sur des considerations math6matiques en oubliant le 
caractSre particulier de la parole. 
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D'autres techniques enfin sont basees sur des 
cri teres de coherence. La fonction de coherence est 
particulierement bien developp^e par J. A. Cadzow et 0. M. 
Solomon {« Linear modeling and the coherence function*, 
: IEEE Trans, on Acoustics, Speech and Signal Processing, 
Vol. ASSP-35, n- 1, janvier 1987, pages 19-28), et son 
application au d6bruitage a 6t6 6tudi6e par R. Le Bouquin 
(« E.ihancement of noisy speech signals : application to 
mobile radio communications », Speech Communication, Vol. 
; 18, pages 3-19) . Cette m6thode se base sur le fait que le 
signal de parole a une coherence nettement plus importante 
•que le bruit a condition d'utiliser plusieurs canaux 
ind6pendants. Les r6sultats obtenus semblent gtre assez 
encourageants. Mais malheureusement, cette technique 
impose d' avoir plusieurs sources de prise de son, ce qui 
n'est pas toujours r6alis6. 

Un but principal de la pr6sente invention est de 
proposer une nouvelle technique de dibruitage qui prenne 
en compte les caract6ristiques de perception de la parole 
20 par I'oreille humaine, permettant ainsi un debruitage 
efficace sans d6t6riorer la perception de la parole. 

L' invention propose ainsi un proc6de de 
d6bruitage d'un signal de parole numferique traite par 
trames success ives, dans lequel : 

- on calcule des composantes spectrales du signal 
de parole sur chaque trame ; 

- on calcule pour chaque trame des estimations 
major6es de composantes spectrales du bruit compris dans 
le signal de parole / 

on effectue une soustraction spectrale 
comportant au moins une premiere 6tape de soustraction 
dans laquelle on soustrait respect ivement, de chaque 
composante spectrale du signal de parole sur la trame, une 
. premiere quantity dfependant de paramdtres incluant 
35 1' estimation major^e de la composante spectrale 
correspondante du bruit pour ladite trame, de manifire 4 
obtenir des composantes spectrales d'un premier signal 
d6bruit6 ; et 
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- on applique au r6sultat de la soustraction 
spectrale une transformation vers le domaine temporel pour 
construire un signal de parole d6bruit6. 

Selon 1' invention, la soustraction spectrale 
comporte en outre les etapes suivantes : 

- le calcul d'une courbe de masquage en appliquant 
un module de perception auditive 4 partir des composantes 
spectrales du premier signal d6bruit6 ; 

la comparaison des estimations major^es des 
composantes spectrales du bruit pour la trame a la courbe 
de masquage calculee ; et 

- une seconde §tape de soustraction dans laquelle 
on soustrait respectivement, de chaque composante 
spectrale du signal de parole sur la trame, une seconde 
quantity dependant de param^tres incluant un 6cart entre 
1' estimation major^e de la composante spectrale 
correspondante du bruit et la courbe de masquage calculee. 

La seconde quantit6 soustraite peut notamment fitre 
limit6e 4 la fraction de 1' estimation majorSe de la 
composante spectrale correspondante du bruit qui d6passe 
la courbe de masquage. Cette facon de proc6der repose sur 
1' observation qu'il suffit de d6bruiter les frequences de 
bruit audibles. A contrario, il ne sert 4 rien d'61iminer 
du bruit qui est masqu6 par de la parole. 
25 La surestimation de I'enveloppe spectrale du 

bruit est g6n6ralement souhaitable pour que 1' estimation 
major6e ainsi obtenue soit robuste aux brusques variations 
du bruit. N6anmoins, cette surestimation a habituellement 
1' inconvenient de distordre le signal de parole 
lorsqu'elle devient trop importante. Ceci a pour effet 
d'affecter le caractere voise du signal de parole en 
supprimant une partie de sa pr6dictibilit6. Cet 
inconvenient est tr6s genant dans les conditions de la 
telephonic, car c'est pendant les rones de voisement que 
le signal de parole est alors le plus 6nerg6tique. En 
limitant la quahtite soustraite lorsque la totalitfe ou une 
partie d'une composante f rfequentielle du bruit surestim6 
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s'avere etre masquee par la parole/ 1' invention permet 
d'attfenuer fortement cet inconvenient. 

D'autres particularit6s et avantages de la 
presence invention apparaitront dans la description ci- 
5 apres d'exemples de realisation non limitatifs, en 
reference aux dessins annexes, dans lesquels : 

- la figure 1 est un schema synoptique d'un 
systeme de dSbruitage mettant en oeuvre la presente 
invention ; 

^0 - les figures 2 et 3 sont des organi grammes de 

procedures utilisees par un d6tecteur d' activity vocale du 
systeme de la figure 1 ; 

- la figure 4 est un diagramme representant les 
etats d'un automate de detection d'activitfe vocale ; 

• la figure 5 est un graphique illustrant les 
variations d'un degr6 d' activity vocale ; 

- la figure 6 est un sch6ma synoptique d'un module 
de surestiraation du bruit du systSme de la figure 1 ; 

- la figure 7 est un graphique illustrant le 
20 calcul d'une courbe de masquage / 

la figure 8 est un graphique illustrant 
1' exploitation des courbes de masquage dans le systeme de 
la figure 1 ; 

" la figure 9 est un sch6ma synoptique d'un autre 
25 systSme de d6bruitage mettant en oeuvre la presente 
invention ; 

- la figure 10 est un graphique illustrant une 
m^thode d' analyse harmonique utilisable dans un proc6d6 
selon 1' invention ; et 

"la figure 11 montre partiellement une variante 
du schema synoptique de la figure 9. 

Le systeme de dSbruitage represents sur la figure 
1 traice un signal num6rique de parole s. Un module de 
fenetrage 10 met ce signal s sous forme de fenfitres ou 
35 trames successives, constitutes chacune d'un nombre N 
d'6chantillons de signal numerique, De facon classique, 
ces trames peuvent presenter des recouvrements mutuels. 
Dans la suite de la prfesente description, on consid6rera. 
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sans que ceci soit limitatif, que les trames sont 
constituees de N=256 6chantillons i une fr6quence 
d' echantillonnage de 8 kHz, avec une pond6ration de 

Hamming dans chaque fenetre, et des recouvrements de 50% 

5 entre fenecres cons6cutives\ 

La trame de signal est trans formee dans le domaine 

frequentiel par un module 11 appliquant un algorithme 

ciassique de transformee de Fourier rapide (TFR) pour 

calculer le module du spectre du signal. Le module 11 

10 dSlivre alors un ensemble de N=256 composantes 

frequentieiles du signal de parole, not6es S„ ^, oti n 

n, z 

designe le num6ro de la trame courante, et f une frequence 
du spectre discret. Du fait des propri6tes des signaux 
numeriques dans le domaine frequentiel, seuls les N/2«128 

15 premiers echantillons sont utilises. 

Pour calculer les estimations du bruit contenu 
dans le signal s, on n' utilise pas la resolution 
frequentielle disponible en sortie de la transformee de 
Fourier rapide, mais une resolution plus faible, 

20 determinee par un nombre I de bandes de frequences 
couvrant la bande [0,F3/21 du signal. Chaque bande i 

(l^i£I) s'etend entre une frequence inferieure f(i-l) et 
une frequence superieure fli), avec f(0)=0, et f(I)=F^/2. 
Ce decoupage en bandes de frequences peut §tre uniforme 
(f .(i)-f (i-l)=F^/2I) . II peut egalement Stre non uniforme 
(par exemple selon une echelle de barks) . Un module 12 
calcule les moyennes respectives des composantes 
spectrales S^^ ^ du signal de parole par bandes, par 
exemple par une ponderation uniforme telle que : 

^"'•^ " f (i) - f U-i) r ^ ,^n,f (1) 

Ce moyennage diminue les fluctuations entre les 
bandes en moyennant les contributions du bruit dans ces 
bandes, ce qui diminuera la variance de I'estimateur de 
bruit. En outre, ce moyennage permet une forte diminution 
35 de la complexite du systeme. 
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Les composantes spectrales moyenn^es S„ ^ soht 

adressees i un module 15 de detection d' activity vocale et 
A un module 16 d' estimation du bruit. Ces deux modules 15, 
16 fonctionnent conjointement, en ce sens que des degr^s 
d' activity vocale y^^^ ^ mesures pour les diff6rentes bandes 

par le module 15 sont utilises par le module 16 pour 
estimer l'6nergie d. long terme du bruit dans les 
differentes bandes, tandis que ces estimations h long 
terme B^^^^ sont utilis6es par le module 15 pour proc6der k 

un d6bruitage a priori du signal de parole dans les 
differentes bandes pour determiner les degr^s d' activity 
vocale v^^i. 

Le fonctionnement des modules 15 et 16 peut 
correspondre aux organigrammes reprSsentfes sur les figures 
2 et 3. 

Aux 6tapes 17 a 20, le module 15 procfede au 
d^bruitage a priori du signal de parole dans les 
differentes bandes i pour la trame de signal n. Ce 
d6bruitage a priori est effectue selon un processus 
I classique de soustraction spectrale non lin6aire k partir 
d' estimations du bruit obtenues lors d'une ou plusieurs 
trames pr6c6dentes. A l'6tape 17, le module 15 calcule, 
avec la resolution des bandes i, la reponse en frequence 
"Pn,i filtre de d6bruitage a priori, selon la formule : 

"Pn,i = s (2) 

^n-t2,i 

oil il et z2 sont des retards exprimfes en nombre de trames 
(1121, t2i0), et aj^^i est un coefficient de surestimation 
du bruit dont la determination sera expliquee plus loin. 
Le retard xl peut etre fixe (par exemple t1»1) ou variable. 
! II est d'autant plus faible qu'on est confiant dans la 
detection d'activite vocale. 

Aux etapes 18 ii 20, les composantes spectrales 
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^Pn,i ^^^^ calculees selon : 

ou Ppj^ est un coefficient de plancher proche de 0, servant 

classiquement a eviter que le spectre du signal d6bruit6 
5 prenne des valeurs negatives ou trop faibles qui 
provoqueraient un bruit musical. 

Les etapes 17 & 20 consistent done essentiellement 
A soustraire du spectre du signal une estimation, major6e 

par .le coefficient cl^^^I,!' spectre du bruit estimfe a 
10 priori. 

A l'6tape 21, le module 15 calcule i'6nergie du 
signal d6bruit6 a priori dans les diff6rente5 bandes i 

pour la trame n : £^ ^ = Ep^ . il calcule aussi une 

moyenne globale E^^^q de l'6nergie du signal d6bruit6 a 

15 priori, par une somme des Energies par bande E 

n, 1' 

ponderee par les largeurs de ces bandes, Dans les 
notations ci-dessous, I'indice i=0 sera utilis6 pour 
designer la bande globale du signal, 

Aux etapes 22 et 23, le module 15 calcule, pour 
chaque bande i (O^i^l), une grandeur AE„ . reprfesentant 
la variation h court terme de l'6nergie du signal d6bruit6 
dans la bande i, ainsi qu'une valeur i. long terme En,i de 
i'6nergie du signal d6bruit6 dans la bande i. La grandeur 
^^n,i P®"t etre calcul6e par une formule simplifiee de 



20 



25 derivation : A£„ ,• 



Quant k 



10 

l'6nergie a long terme En,i, elle peut §tre calcul6e & 

I'aide d' un facteur d'oubli Bl tel que 0<B1<1, A savoir 
En,i = Bl . £n-l,i + a-BD . E^^ . 
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Apres avoir calcule Les energies E^^^ du signal 
dSbruitS, ses variations 4 court terme AE„ . et ses 

vaieurs d long terme E^^i de la mani6re indiquee sur la 
figure 2, le module 15 calcule, pour chaque bande i 
5 (0£i<l), une valeur representative de I'evolution de 

l'6nergie du signal d6bruit6. Ce calcul est effectu6 aux 
etapes 25 4 36 de la figure 3, ex6cut6es pour chaque bande 
i entre i=0 et i=I. Ce calcul fait appel k un estimateur a 
long terme de I'enveloppe du bruit ba^, 4 un estimateur 
10 interne bi^ et a un compteur de trames bruit6es b^^. 

A I'^tape 25, la grandeur AE„ . est comparee & un 
seuil si. Si le seuil el n'est pas atteint, le compteur 

est increments d'une unitfe k l'6tape 26. A I'fetape 21, 
1' estimateur k long terme ba^ est compare k la valeur de 

15 I'energie liss6e E^,! . Si ba^^^En,!/ I'estimateur ba^^ est 

pris egal 4 la valeur liss6e E^^i & l'6tape 28, et le 

compteur b^ est remis & z&ro. La grandeur p^, qui est 

prise egale au rapport ba^^/En^i (6tape 36), est alors 
6gale a 1. 

20 Si I'Stape 27 montre que baj^<En,i/ 1® compteur b^ 

est compare k une valeur limite bmax k l'6tape 29. Si 
bj^>bmax, le signal est considfere comme trop stationnaire 
pour supporter de 1' activity vocale. L'6tape 28 pr6cit6e, 
qui revient a consid6rer que la trame ne comporte que du 

25 bruit, est alors ex6cut6e. Si b^ Sbmax k l'6tape 29, 
1' estimateur interne bi^^ est calcul6 i I'fetape 33 selon : 
Jbi^ = a-Bm) . En,x + Bm . ba^ ( 4 ) 

Dans cette formule, Bm reprfesente un coefficient de mise k 
jour compris entre 0,90 et 1. Sa valeur difffere selon 
30 l'6tat d'un automate de d6tection d' activity vocale 



09/25/2003* EAST Version: 1.04.0000 



wo 99/14738 



• 10 - 



PCT/FR98/01980 



(etapes 30 a 32) . Cet fetat 5^^.^ est celui determine lors 
du traicement de la trame pr6cedente. Si 1' automate est 
dans un etat de detection de parole i^j^^i=2 k l'6tape 30), 

le coefficient Bm prend une valeur Bmp tr§s proche de 1 
5 pour que I'estimateur du bruit soit tr6s faiblement mis i 
jour en presence de parole. Dans le cas contraire, le 
coefficient Bm prend une valeur Bms plus faible, pour 
permettre une mise & jour plus significative de 
I'estimateur de bruit en phase de silence. A l'6tape 34, 
10 I'ecare ba^-bi^^ entre I'estimateur k long teriae et 

I'estimateur interne du bruit est compar6 ^ un seuil e2. 
Si le seuil e2 n'est pas atteint, I'estimateur k long 
terme ba^ est mis k jour avec la valeur de I'estimateur 
interne bi^ k I'fetape 35. Sinon, I'estimateur k long terme 
IS ba^^ reste inchangS. On 6vite ainsi que de brutales 

variations dues k un signal de parole conduisent a une 
mise k jour de I'estimateur de bruit. 

Apr6s avoir obtenu les grandeurs p^, le module 15 

proc6de aux decisions d' activity vocale k I'Stape 37. Le 
20 module 15 met d'abord k jour I'fetat de 1' automate de 
detection selon la grandeur pQ calculee pour 1' ensemble de 

la bande du signal. Le nouvel 6tat 5^^ de 1' automate d6pend 
de l'6tat precedent 5^^.;^ et de Pq, de la maniSre 
representee sur la figure 4. 

25 Quatre 6tats sont possibles : 5=0 dfetecte le 

silence, ou absence de parole ; 5=2 d6tecte la presence 
d'une activite vocale ; et les etats 6=1 et 6=3 sont des 
etats intermediaires de mont6e et de descente. Lorsque 
1' automate est dans I'fetat de silence (5jj.j^=0) , il y reste 

30 si pQ ne d6passe pas un premier seuil SEl, et il passe 
dans l'6tat de montSe dans le cas contraire. Dans l'6tat 
de montfee (^j^-j^^l), il revient dans l'6tat de silence si 
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pQ est plus petit que le seuil SEl, il passe dans l'6tat 
de parole si Pq est plus grand qu'un second seuil SE2 plus 
grand que ie seuil SEl, et il reste dans l'6tat de mont6e 
si SE1<, PqSSE2. Lorsque I'automate est dans l'6tat de 
5 parole (6„.i=2), il y reste si Pg d6passe un troisi^me 
seuil SE3 plus petit que le seuil SE2, et il passe dans 
I'^tat de descente dans le cas contraire. Dans l'6tat de 
descente (5n.i=3) , I'automate revient dans l'6tat de 
parole si Pq est plus grand que le seuil SE2, il revient 
10 dans I'^tat de silence si pg est en dec4 d'un quatri^me 
seuil SE4 plus petit que le seuil SE2, et il reste dans 
I'^tat de descente si SE4^pgSSE2. 

A l'6tape 37, le module 15 calcule fegalement les 
degr6s d'activitfe vocale y^^^ dans chaque bande l^i. ce 

15 degr6 y^. est de pr6f6rence un parametre non binaire, 
c'est-4-dire que la fpnction Yn,i»g(Pi) «st une fonction 
variant continQment entre 0 et 1 en fonction des valeurs 
prises par la grandeur p^. Cette fonction a par exemple 
1' allure representee sur la figure 5. 

20 Le module 16 calcule les estimations du bruit par 

bande, qui seront utilis6es dans le processus de 
debruitage, en utilisant les valeurs successives des 
composantes s„ ,. et des degr6s d'activitfe vocale y 
Ceci correspond aux 6tapes 40 k 42 de la figure 3 ' a 

25 I'etape 40, on determine si I'automate de detection 
d'activite vocale vient de passer de l'6tat de montee d 
I'etat de parole. Dans 1' affirmative, les deux dernieres 
estimations Vi,/ et i„_2^_^ precedemment caicuUes pour 
chaque bande isi sont corrigees conform6ment a la valeur 

30 de 1' estimation precedente B„_^^^. cette correction est. 
ef fectuee pour tenir compte du fait que, dans la phase de 
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moncee (5=1), les estimations a long terme de I'energie du 
bruit dans le processus de detection d' activity vocale 
(etapes 30 i 33) ont pu etre calcul6es comme si le signal 
ne comportait que du bruit (Bm=Bms) , de sorte qu'eUes 
5 risquent d'etre entachees d'erreur. 

A l'6tape 42, le module 16 met S jour les 
estimations du bruit par bande selon les formules : 

00 Xb d^signe un facteur d'oubli tel que 0<Vl. La 
formule (6, met en Evidence la prise en compte du degr^ 

d'activite vocale non binaire v .. 

nil 

com., indiqu^ prtcsctement. Us estimations 4 long 
terme du bruit B^, font I'objet d'un. surestlastion, par 
15 un module <5 1,, .vent de proc^der en d^brultage 

par soustractlon spectrale non Un^aire. Le module H 
clcul. le coefficient de surestimation a),, pr.c^demment 
«vo,u., alnsi ^.une estimation major^e i^, <^i correspond 
essentiellemeht ^ a' • fl . 
20 L' organisation du module de surestimation 45 est 

representee sur la figure 6. L' estimation major^e i^, est 
obtenue en combinant 1' estimation A long terme i^, et une 
-sure .B-x de la variability de la composante du bruit 
dans la bande i autour de son estimation a long terme 

revise ::r'^ ^^-^^-^-^ p™; 

6 ce oo ''""^ ^'^''''^ - addition^eur 

46. Ce pourrait egalement etre une somme pond6r6e. 

Le coefficient de surestimation a'^^ est egal au 

rapport entre la somme i + ah™« ^a, • . 

°n,i + '^^n,! d61ivr6e par 
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I'additionneur "46 et 1' estimation , long terme retardfee 

Vx3,i (diviseur 47), piafonn6 i une valeur limite a 

"max' 

par exemple o^^^m (bloc 48). Le retard x3 sert ^ corriger 
le cas echeant, dans les phases de mont6e (5=1), la valeur 
du coefficient de surestimation aV, avant gue les 
estxmations , long terme aient corrig.es par les 

etapes 40 et 41 de la figure 3 (par exemple t3=3) . 

L' estimation maior.e B i 

iuajaree ti^^^ est finaiement prise 

egale a cl'^^^. B^^^^.i (multiplieur 49). 

La mesure AB^l de la variability du bruit reflate 
la variance de I'estimateur de bruit. Elle est obtenue en 
fonction des valeurs de S,^, et de B,,, calcul^es pour un 
certain nombre de trames pr6c6dentes sur lesquelles 1. 
s..nal de parole ne pr.sente pas d'activit. vocaTedans la 
^ande i. c^est une fonction des .carts [s^.,,, - i^, J 
calcul.s pour un nombre K de trames de silence (n-k<ni 
Dans I'exemple represent., cette fonction est silpie.e ; 
1 maximum (bloc 50). Pour chague trame n, i7 ^ 
d'activite vocale v «egre 
locale .. est compar. a un seuil (bloc 51) 

pour decider si I'Antri- Ic £ I 

1 ecart - B^_^.|, calcuU en 52-53, doit 

ou non etre charg. dans une file d'attente 54 d. . 
emplacements organisfee en moHo ,^ accente 54 de K 

(FIFO, ^ "^"^^ P"«^^«^ entre-premier sorti 

<"^0,. s. y^^. ne d^passe pas le seuil (gui peut etre 

FIFO V figure 5, la 

FIFO 54 n'est pas aliment.e, tandis qu'elle I'est dan! 
cas contraire. La valeur maximale contenue daL la FXF; ll 
est alors fournie corome mesure de variability Ab'^^ . 

La mesure de variabilit* is^^ pe«, .„ variant., 
"re obcenue en fonction des valeurs s„ , ,et non s„ et 
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^n,x • precede alors de la m6me manifere, sauf que la FIFO 



54 contient non pas 



A 



pour chacune des bandes 



mais plutot max ASr^^uf - ju . 

Grace . aux estimations ind6pendantes des 
5 fluctuations a long terme du bruit B^^^ et de sa 

variabilite a court terme Aflj^/, I'estimateur majore b\^^ 

procure une excellente robustesse aux bruits musicaux du 
prpc6de de dfebruitage. 

Une premiere phase de la soustracticn spectrale 
10 est realisee par le module 55 represents sur la figure !• 
Cette phase fournit, avec la resolution des bandes i 

(l^isi), la rSponse en frequence ff]^^^ d'un premier filtre 

de d6bruitage, en fonction des composantes S • et B • et 

n^ 1 n^j 

des coefficients de surestimation a'^^ . Ce calcul peut 
15 6tre effectu6 pour chaque bande i selon la formule : 

- Z ^ (7) 

ou T4 est un retard entier d6tenain6 tel que t4^0 (par 
exemple t4=0) . Dans 1' expression (7), le coefficient 
repr6sente, comme le coefficient Pp^ de la formule (3), un 

20 plancher servant classiqueraent k 6viter les valeurs 
negatives ou trop faibles du signal d6bruit6. 

De facon connue (EP-A-0 534 837), le coefficient 
de surestimation a'^^^ pourrait etre remplac6 dans la 
formule (7) par un autre coefficient egal h une fonction 

25 de a„^^ et d'une estimation du rapport signal-sur-bruit 
(par exemple cette fonction 6tant d6croissante 
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selon ia valeur estim6e du rapport signal-sur-bruit • Cette 

fohction est alors 6gale a pour les valeurs les plus 

faibles du rapport signal-sur-bruit. En effet, lorsque le 
signal est tres bruite, il n'est a priori pas utile de 
5 diminuer le facteur de surestimation. Avantageuseraent, 
cette fonction d6crolt vers z6ro pour les valeurs les plus 
elevees du rapport signal/bruit. Ceci permet de prot^ger 
les zones les plus 6nergetiques du spectre, oO le signal 
de parole est le plus significatif , la quantit6 soustraite 
10 du signal tendant alors vers z6ro. 

Cette strategic peut etre affinee en I'appliquant 
de maniere selective aux harmoniques de la frequence 
tonale .(« pitch ») du signal de parole lorsque celui-ci 
presente une activity vocale. 
15 Ainsi, dans la realisation representee sur la 

figure 1, une seconde phase de d6bruitage est r6alis6e par 
un module 56 de protection des harmoniques. Ce module 
calcule, avec la resolution de la transform6e de Fourier, 

la reponse en frequence d'un second filtre de 

20 debruitage en fonction des param6tres Hj^^j^, OL^^if B^^j^, 5^, 
^® frequence tonale fp=F^/Tp calcul6e en dehors 
des phases de silence par un module d' analyse harmonique 
57, En phase de silence (5^"^*^^' ^® module 56 n'est pas en 

service, c'est-4-dire que H^^f = H^^^ pour chaque 

25 frequence f d'une bande i. Le mpdule 57 peut appliquer 
toute methode connue d' analyse du signal de parole de la 
trame pour determiner la periode Tp, exprimee comme un 

nombre entier ou fractionnaire d' echantillons, par exemple 
une methode de prediction lineaire, 
30 La protection apportee par le module 56 peut 

consister a effectuer, pour chaque frequence f appartenant 
a une bande i : 
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H^f = 1 si 



et 3r\ entier / |/ - ti. /p| S Af / 2 (9) 



Af=Fg/N reprSsente la resolution spectrale de la 

trans formee de Fourier. Lorsque H^^^=l, la quantity 
soustraite de la composar-te ^xi,t sera nulle. Dans ce 
5 calcul, les coefficients de plancher (par exemple 

(J^ = 3^ ) expriment ie fait que certaines harmoniques de la 
frequence tonale fp peuvent etre masquees par du bruit, de 

sorte qu'il n'est pas utile de les prot6ger. 

Cette strat6gie de protection est de pr6f6rence 
10 appliquee pour chacune des frequences les plus proches des 
harmoniques de fp, c'est-4-dire pour t] entier quelconque. 

Si on d^signe par 5fp la resolution f r^quentielle 

avec laquelle le module d' analyse 57 produit la frequence 
tonale estimee fp, c' est-a-dire que la frequence tonale 

15 r6elle est comprise entre fp-5fp/2 et fp+5fp/2, alors 

l'6cart entre la ri-ieme harmonique de la frequence tonale 
r6elle est son estimation nxfp (condition (9)) peut aller 

jusqu'a ±'nx5fp/2. Pour les valeurs eiev^es de ti, cet Scart 

peut etre superieur d la demi-r^solution spectrale Af/2 de 
20 la trans formee de Fourier. Pour tenir compte de cette 
incertitude et garantir la bonne protection des 
harmoniques de la frequence tonale rfeelle, on peut 
prot6ger chacune des frequences de I'intervalle 

|iixfp- Tix6rp/2 r Tixfp+ Tix5^/2j, c'est-4-dire remplacer la 

25 condition (9) ci-dessus par : 

3ti entier / |f - t]. ^ (ii, 6/p + Af)/2 (9' ) 
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Cette faccn de proc^der (condition (9')) pr6sente un 
interec particuiier lorsque les valeurs de t] peuvent 6tre 
grandes, notamment dans le cas oil le . proc6de est utilise 
dans un syst6me S bande elargie. 
5 Pour chaque frequence protegee, la r6ponse en 

frequence corrig^e Hj,^ peut Stre 6gale ^ 1 coKuue indiqu6 
ci-dessus, ce qui correspond k la soustraction d'une 
quantite nulle dans le cadre de la soustraction spectrale 
c est-a-dire a une protection complete de la frequence en 

^0 questmen. Plus g.n.ralement, cette r.ponse en frequence 
corrigee ppurrait etre prise 6gale 4 une valeur 

comprise entre l et h^, selon le degr. de protection 
souhait6, ce qui correspond i la soustraction d'une 
quantity inf6rieure A celle qui serait soustraite si la 

15 fr6quence en question n'6tait pas prot6g6e. 

Les composantes spectrales sj^^ d'un signal 
d6bruite sont calcuUes par un multiplieur 58 : 

= ^n,/"^!,,/ (10) 

Ce signal sj^^ est f ourni 4 un module 60 qui 

20 calcuie, pour chaque trame n, une courbe de masquage en 

appUquant un modele psychoacoustique de perception 

auditive par I'oreille humaine. Perception 

fon.^. ''^ Ph6nom6ne de masquage est un principe connu du 
fonctxonnement de I'oreille humaine. Lorsque deux 
qu:TunY r^'n'"''"'"' simultan..ent, il est possible 

ou'elle est ^ 
qu eiie est masquee. 

^onrK ^'^"^^ differentes mSthodes pour calculer des 

30 dZ?r par exemple utiliser celle 

S analsT-''^ '^'^^^^'^ («Transform Coding of Audio 

selected Area m Communications, Vol. 6, No 2 

Icn::/'?'- '^"^ '^''^ - travaille • dan; 

1 echelle frequentielle des barks. La courbe de masquage 
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signal «citateur, consticu^ dans la prtsente 
application p„ u .i,„al 4^. fcaction . d-*tale»ant 



9-1 si 



' ^*=''"e„t le. bandes de .ar. 

sq-q SQ), et s^, repr«5ente la moyenne das co»posantes 

<Uscr»tes r appartenant 4 la bande de bark 

-"'quaq. M„ „t obtenu par le module 
^0 pour cba^e bande^de bar. salon la formula : 

De facon connue, une forme possible de est : 

^°-l°9io(Rq) - (A+q).x ♦ B. (1-x) (13, 

avec A=14,5 et n-^ «; 

Signal de parol. " ™ise».„t du 

i (Signal fortement vois^i ^ 

forme connue : * ParamStre x peut Stre de la 



X = min 



SFM 

- . 1 



«^max 



X-nergle das bandel de tL.'^, S^^r-.c'r ^ 

62 qui corrige ^^'"P^'^^ "n module 

rrige la reponse en frequence du filtre de 
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d^bruitage, en fonction de la courb. w 

courbe de masquage m 
calcuiee par le module 60 o^ a ^'"^ 

*-ie ^3,u. p./,, rr^arou ^-"i'-nt 
La nouvelle r6ponse 




(14) 



En d'autres tennes 
"mposante spectrale T 'V'"'""" «ustrait6 d'une 

-ustraction spectral-, 

pectrale ayant la r^ponse frSouentl.n 

^antu. scua.aue jjj 

e P"c.saua -uscracuon "pr^Urt 
frequentielle w2 ^ r6ponse 

"n,f' et d' autre part la * 

^^^^ fraction de 

estimation major6e i' , de i. 

correspondante du bruit V '^"""^^"^ ^^^^^"^^ 

courbe de masquage M 6ch6ant, d6passe la 

La figure 8 illustro i 
appliquee par le module 62 Ell' correction 

«. EUe montre schema tiquement un 
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-e„pxe .e courb. de ™as^,e H„,, c.lcul.e sur la base 
=o.po,a„tes spectrales si, du .i,„al ....uU.. ai„,i 
l'estl„tion „3„,e i)^ .u spectre au bruit, u 
.uanti.. £i„ale„.„t soustr.tt. d„ co^.antes s„ , «ra 
ceXie representee par ies .ones .achur*es. Cest'-ldire 
U«itee . u fraction de I'esti^tion :«3or.e i' . d.s 
co^posantes spectraies du bruit ^i d.passe ia couTbe de 

Cette soustraction est effectuee en multipUant -a 
' reponse fr6quentielle 

4 entieiie H^^^ du fiitre de d^bruitage par les 

composantes spectral^.! c 

pectrales s^^ ^ du signal de parole 

ie" :r - - 

transform^e de Fourier raniHo ^P^'^nt u 

irourier rapide inverse (TFRI) inverse des 
echantillons de frequence • x 

^^^^^ d61ivr6s par le multipUeur 

Pour chaque trame, seuls les k/o-ioo 
-antiuons du signal produit pa^le^rre 
<^«l-res conune signal d6bruit6 final 
reconstruction par addiM«« ' *P^^s 

derniers echantillonf h ^« •^/2=128 

La fx^i. o P-^c6dente (module 66, . 

Pr.f.r.e Vun'^s.stLT'lr ^^^^^-"^n 
invention. Ce'^t: J" ^^^^^^^^^ 
d'616ments senUblables ^ des Trr'\ 

sys.t6me de )a fiouro i ^'''^ correspondants du 

' 45 et 50 fournissent notaitunent les quantit^s 

'na' V' a^i' ^^i et /.J^^ pour effectuer le d^bruitage 
selectif. *«.age 

rourier ViTTZ^ ''T"" '""^^"^^ 

protection par if JuXe ~ 'ptt " 

n est pas n6cessairement la 
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frequence tonale precise fp, mais la frequence la plus 
proche de celle-ci dans le spectre discret. Dans certains 
cas, on peut alors proteger des harmoniques relativement 
^ eloxgnees de ceile de la frequence tonale. Le syst6«te de 
- ia figure 9 pallie cet inconvenient grace k un 
conditionnement approprie du signal de parole. 

Dans ce conditionnement, on modifie la frequence 
d .chantillonnage du signal de telle sorte que la p^riode 
i/tp couvre exactement un nombre entier de temps 
10 d'^chantillon du signal conditionne. 

De nombreuses m6thodes d' analyse .harmor-icue 
Pouvant .tre mises en .uvre par le module 57 sont capabL 
.ournir une valeur fractionnaire du retard r , exprim6 

15 Z.T.erT'T''' ' d'^chantillonnage 
xnitiale F^. on choisit alors une nouvelle frequence 

d'^chantillonnage f^ de telle sorte qu'elle soit 6gale . 
un multiple entier de la frequence tonale estim^e, soit 
e-p.rp-p.Fg/Tp=K.Fg, avec p. entier. Afin de ne pas perdre 
d'6chantillons de signal, ii convient que f^ soit 
sup^rieure a F,. On peut notamment imposer qu'elle soit 

comprise entre F et 2f n 

'=e ^*^e «1^2), pour faciliter la mise 

en oeuvre du conditionnement. 

Bien entendu, si aucune activit6 vocale n'est 
d^tect.e sur la trame courante (6„.0) , ou si le retard T 
25 estim. par le module 57 est entier, il n'est pas 
n^cessaire de conditionner le signal. ^ 

tonale ""I'" harmoniques de la frequence 

d'cilnti r"T'' ''''""^"^ ' -'^^ -tier 

d 6chantUlons du signal conditionn6, 1' entier p doit Stre 

30 un d.viseur de la taille M de la fen.tre de signal 

ta^ne^M '° ^^^^ « -t^-- ^ette 

ca.lle N est usuellement une puissance de 2 pour la mise 
en oeuvre de la tpp ^ ^ *"j-5>c 

consider*. ''"'«»>'l- 



20 
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La resolution spectrale Af de la transform6e de 
.ourxer discrete du signal conditionn^ est donn^e par 
Af=p.fp/N=fp/a. On a done int6rSt a choisir p petit de 
facon a maximiser a, mais suf f isanunent grand pour 
surechantillonner. Dans l'exe.ple consider., ol F,=8^He 

!ir".'- Param^tres^p et a 

sont indiquees dans. le tableau I. 




Tableau I 



retard Tp fournie par le module d' analyse 
harmonique 57. Le module 70 fournit le r;,nn«.^ . 

Le module 71 sert 4 transformer les valeurs s 

15 i • *• 

"'•i' "'n,!' B„^_^ et H^^ , relatives aux bandes i d6finies 

^".^:r- — ^^^^^ 

celui-cl op^re alors de la mtoe aanUre 
pr*c.d,™.„t pour fournir la r*po,«e e„ fr4.^,„„ ^ 
tUtre de d6brul«<,e. Cette rtponie <^ est obte„ue le la 
«anl.„ ^e da,« le c.= de 1. ti,ure 1 .conditions 
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<S) et (9)), a cette difference pres que, dans i. 
condxtion (S, , ,,,,,,,,, ^^^^^^J J^^-^^la 

selon la vaieur du retard entier p fourni par le .odule 

tra.e de'^ ZZlILlT'^ sur.chantiilonnage de la 

surechantillonnage dans un facteur k y^i-- 
{K=K1/K2) consiste A "cteur K rationnel 

n ^onsisce It effectuer d'aborrt 

0 surechantillonnage dans le facteur entier Kl • 

sous-9cr="t" ^ entier Kl, pms un 

survey 7"?:^^^^ entier K2. Ces 

fa-eu^s e-^M s°"s-echantiUonnage dans des 

^ ~;e:;: -rL = xrr- — - 
:«„:::rr' " v„\r 

Fourier s ca. =ompo««e, de 

„„,.,, "»P<»"te, s„,, ,ont (outnie, ,u 

-Xt.px.eur 5S. ^lUpUe per u r.ponse spectreU 

«n,f pour d41Wrer l.s co»po,a„te, spectrales , 
premier stjnal dtoruit*. 

ces composantes sent adreae^es .u module 60 

zl:^:: - - «a„i*re 

De pr4f4rence, dans ce calcui des courbes d. 

9nal de parole (Jormuie (X3,, est prise de la forme 
^ 1 H.. ou H est u„e entropie de !• autocorrelation de. 
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composantes spectrales sj^jf du signal conditionne 

d6bruite. Les autocorrelations A(k) sont calcul6es par un 
module 76, par exemple selon la formule : 

N/2-1 

f=0 

= W/2-1 W/2-1 (15) 

f=0 f=0 

Un module 77 calcule. ensuite I'entropie normalis6e 

H, et la fournit au module 60 pour le calcul de la courbe 

de masquage (voir S.A, McClellan et al : « Spectral 

Entropy : an Alternative Indicator for Rate 

Allocation ? », Proc. ICASSP'94, pages 201-204) : 

N/2-1 

c ^ Mk) . log[A(Jk)J 
_ J^=0 

log(W/2) 

Grace, au conditionnement du signal, ainsi qu'i son 

d6bruitage par le filtre H^^^, I'entropie norroalis6e H 

constitue une mesure de voisement tr6s robuste au bruit et 
aux variations de la fr6quence tonale. 

^® module de correction 52 op6re de la mSme 
manifere que celui du syst6me de la figure 1, en tenant 

compte du bruit surestimi ^emis k l'6chelle par le 

module de changement de fr6quence 71. ii fournit la 
r6ponse en frequence ffj^^ du filtre de d6b,ruitage 
20 d6finitif, qui est multipli6e par les composantes 
spectrales S^^ ^ du signal conditionn6 par le multiplieur 

64. Les composantes sj^^ qui en resultent sont ramen^es 
dans le domaine temporel par le module de TFRI 65. En 
sortie de cette TFRI 65, un module 80 combine, pour chaque 
trame, les deux blocs de signal issus du traitement des 
deux blocs recouvrants d61ivr6s par la TFR 75. Cette 
combinaison peut consister en une sonme avec pond6ration 
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de. Hamming des Schantillons, pour former une trame de 
signal conditionne d6bruite de KN echantillons. 

Le signal conditionne debruit6 fourni par le 
module 30 fait I'objet d'un changement de frequence 
d' echantillonnage par le module 73. Sa frequence 
d'6chantillonnage.est. ramen^e A Fg=fg/K par les operations 
inverses de celles effectuees par le module 75. Le module 
73 d61ivre N=256 6chantillons par trame. Apres la 
reconstruction par addition-recouvrement avec les N/2=128 
derniers 6chantillons de la trame pr6c6dente, seuls les 
N/2-128 premiers echantillons de la trame courante sont 

fi.ialement conserves pour former le signal d6bruit6 rinal 
3 

3 (module 66) . 

Dans une forme de realisation pr6f6r6e, un module 
15 82 g6re les fenetres formees par le module 10 et 
sauvegard6es par le module 66, de fagon telle qu'on 
sauvegarde un nombre M d' echantillons egal 4 un multiple 
entier de Tp=Fg/fp. on 6vite ainsi les probUmes de 
discontinuite de phase ehtre les trames. De facon 
correspondante, le module de gestion 82 commande le module 
de fen&trage 10 pour que le recouvrement entre la trame 
courante et la prochaine corresponde h N-M. il sera tenu 
de ce recouvrement de N-M echantillons dans la somme 4 
recouvrement effectuee par le module 66 lors du traitement 
de la prochaine trame. A partir de la valeur de Tp fournie 
par le module d' analyse harmonique 57, le module 82 
calcule le nombre d' echantillons d sauvegarder 
M=TpXE[N/(2Tp)], Ell designant la partie enti6re, et 
commande de faqon correspondante les modules 10 et 66. 
^° ^« "Ode de realisation qu'on vient de 

decrire, la frequence tonale est estimee de fagon moyenne 
sur la trame. Or la frequence tonale peut varier quelque 
peu sur cette dur6e. II est possible de tenir compte de 
ces variations dans le cadre de la presente invention, en 
35 conditionnant le si^rnal de facon d obtenir 
artificiellement une frequence tonale constante dans la 
trame . 
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Pour cela, on a besoin que le module 57 d' analyse 
harmonique fournisse les intervalles de temps entre les 
ruptures cons6cutives du signal de parole attribuables k 
des fermetures de la glotte du locuteur intervenant 
pendant la dur6e de la trame. Des mfethodes utilisables 
pour dfetecter de telles micro- ruptures sont bien connues 
dans ie domaine de 1' analyse harmonique des signaux de 
paroles. On pourra a cet 6gard consul ter les articles 
suivants : M. BASSEVILLE et al., « Sequential detection of 
abrupt changes in spectral characteristics of digital 
signals », IEEE Trans, on Information Theory, 1983, Vol. 
rT-29, n"5, pages 708-723 ; R. ANDRE-OBRECHT, « A new 
statistical approach for the automatic segmentation of 
continuous speech signals », IEEE Trans, on Acous., Speech 
and Sig. Proc, Vol. 36, N»l, janvier 1988 ; et C. MURGIA 
et al., « An algorithm for the estimation of glottal 
closure instants using the sequential detection of abrupt 
changes in speech signals », Signal Processing VII, 1994, 
pages 1685-1688. 

Le principe de ces methodes est d'effectuer un 
test statistique entre deux modules, I'un ii court terme et 
1' autre & long terme. Les deux modfeles sont des modeles 
adaptatifs de prediction lin6aire. La valeur de ce test 
statistique est la somme cumul6e du rapport de 

vraisemblance a posteriori • de deux distributions, cbrrig6e 
par la divergence de Kullback. Pour une distribution de 
residus ayant une statistique gaussienne, cette valeur w, 
est donnee par : 



m 



in 2 



of 



( ^^ 












2 





(17) 



30 oil 



et Oq repr6sentent le r6sidu calcule au moment de 
l'6chantillon m de la trame et la variance du module i 
long terme, ej, et oj repr6sentant de mSme le r6sidu et la 
variance du module k court terme. Plus les deux modeles 
sont proches, plus la valeur du test statistique est 
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proche de 0. Par contre, lorsque les deux modules sont 
61oignes I'un de 1' autre, cette valeur devient 
negative, ce qui denote une rupture R du signal. 

La figure 10 montre ainsi un exemple possible 
5 d' evolution de la valeur w^, montrant les ruptures R du 
signal de parole. Les intervalles de temps t^ 
(r=l,2,...) entre deux ruptures consecutives R sent 
calculus, et exprimes en noinbre d' 6chantillons du signal 
de parole. Chacun de ces intervalles t^ est inversement 
13 proportionnsl S la frequence tonale fp, qui est ainsi 
estimfee localement : fp=Fg/tj. sur le r-i6me intervalle. 

On peut alors corriger les variations temporelles 
de la frequence tonale (c'est-i-dire le fait que les 
intervalles t^ ne sont pas tous 6gaux sur une trame 
15 donn^e), afin d' avoir une fr6quence tonale constante dans 
chacune des trames d' analyse. Cette correction est 
effectuee par une modification de la frequence 
d'echantillonnage sur chaque intervalle t^., de fagon d 
obtenir, apr^s sur6chantillonnage, des intervalles 
20 constants entre deux ruptures glottiques. On modifie done 
la duree entre deux ruptures en faisant un 
sur^chantillonnage dans un rapport variable, de fagon A se 
caler sur I'intervalle le plus grand. De plus, on fait en 
sorte de respecter la contrainte de conditionnement selon 
laquelle la frequence de sur6chantillonnage est multiple 
de la frequence tonale estimee. 

La figure 11 montre les moyens utilises pour 
calculer le conditionnement du signal dans ce dernier cas. 
Le module 57 d' analyse harmonique est r6alis6 de facon k 
mettre en oeuvre la mfethode d' analyse ci-dessus, et h 
fournir les intervalles t^ relatifs i la trame de signal 
produite par le module 10. Pour chacun de ces intervalles, 
le module 70 (bloc 90 sur la figure 11) calcule le rapport 
de sur6chantillonnage K^^Pr/t^, oix I'entier p^ est donn6 
par la troisieme colonne du tableau I lorsque t^ prend les 
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valeurs indiquees dans la deuxieme colonne. Ces rapporcs 
de surechantillonnage K^. sont fournis aux modules de 
changement de frequence 72 et 73, pour que les 
interpolations soient effectu6es avec le rapport 
5 d'echantillonnage K^. sur I'intervalle de temps 
correspondant tj,. 

Le plus grand Tp des intervalles de temps 
fournis par le module 57 pour une trame est s61ectionne 
par le module 70 (bloc SI sur la figure 11) pour obtenir 
10 un couple p,a comme indiqu6 dans le^ tableau i. La 

frequence d' ichantillonnage modifi6e est alors £ =d F /T 

e *^ e p 

comme pr^cedemment, la resolution spectrale Af de la 
transformee de Fourier discrete du signal conditionnfe 
etant toujours donn6e par Af=Fg/ (a.Tp) . Pour le modvAe de 
15 changement de frfequence 71, le rapport de 
. sur6chantillonnage K est donn6 par K=p/Tp (bloc 92). Le 
module 56 de protection des hamoniques de la frequence 
tonale op6re de la m§me mani^re que pr6cedemment, en 
utilisant pour la condition (9) la resolution spectrale Af 
20 fournie par le bloc 91 et la frequence tonale 
V^e^P definie selon la valeur du retard entier p fournie 
par le bloc 91. 

Cette forme de realisation de 1' invention implique 
egalement une adaptation du module 82 de gestion des 
fenetres. Le nombre M d' echanti lions du signal debruite i 
sauvegarder sur la trame courante correspond ici & un 
nombre entier d' intervalles de temps t^ consecutifs entre 
deux ruptures glottiques (voir figure 10). Cette 
disposition evite les probUmes de discontinuite de phase 
30 entre trames, tout en tenant compte des variations 
possibles des intervalles de temps t^ sur une trame. 
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REVENDICATIONS 

1. Procede de d6bruitage d'un signal de parole 

numerique (s) trait6 par trames successives, dans lequel : 

- on calcule des composantes spectrales (S 
^n,i^ signal de parole sur chaque trarae ; 

- on calcule pour chaque trame des estimations 
•I 

majorees (B^j^) de composantes spectrales du bruit compris 
dans le signal de parole ; 

- on ef fectue une soustraction spectrale 
coraportant au moins une premiere etape de soustraction 
dans laquelle on soustrait respectivement, de chaque 
composante spectrale iS^^f) du signal de parole sur la 
trame, une premiere quantity dependant de paraiadtres 
incluant 1' estimation major6e ii'^^) de la composante 

15 spectrale correspondante du bruit , pour ladite trame, de 
maniere k obtenir des composantes spectrales (S^f) d'un 
premier signal d6bruit6 ; et 

- on applique au r6sultat de la soustraction 
spectrale une transformation vers le domaine temporel pour 

20 construire un signal de parole d6bruit6 (s"^), 

caract6ris6 en ce que la soustraction spectrale 
comporte en outre les Stapes suivantes : 

- le calcul d'une courbe de masquage (M^^ ^) en 
appliquant un modele de perception auditive d. partir des 

25 composantes spectrales (S^^) du premier signal d6bruit6 / 

- la comparaison des estimations major6es (bL,) 

des composantes spectrales du bruit pour la trame 4 la 

courbe de masquage calcul6e (M„ ^) . ; et 

n,q 

- une seconde 6tape de soustraction dans laquelle 
30 on soustrait respect ivement, de chaque composante 

spectrale (S^ f) du signal de parole sur la trame, une 
seconde quantite dSpendant de paramStres incluant un 6cart 
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entre 1' estimation majoree de la composante spectrale 
correspondante du bruit et la courbe de masquage calculee. 

2. Precede selon la revendication 1, dans lequel 

ladite seconde quantity relative i une composante 
5 spectrale (3^^^^) du signal de parole sur la trame est 
sensiblement 6gale au minimum entre la premiere quantity 
correspondante et la fraction de 1' estimation major6e 

^^n,i^ composante spectrale correspondante du bruit 

qui d^passe la courbe de masquage (M^^ g) . 

Precede selon la revendication 1 ou 2, dans lequel 
on effectue une analyse harmonique du signal de parole 
pour estimer une frequence tonale (fp) du signal de parole 
sur chaque trame oil il pr6sente une activity vocale. 

4. Proc6d6 selon la revendication 3, dans lequel les 
15 param6tres dont dfependent les premieres quantitfes 

soustraites incluent la fr6quence tonale estim6e (f ) 

P * 

5. Proc6d6 selon la revendication 4, dans lequel la 
premiere quahtit6 soustraite d'une composante spectrale 
donn6e (S„^ ^ ) du signal de parole est plus faible si 

20 ladite composante spectrale correspond ^ la fr6quence la 
plus proche d'un multiple entier de la frequence tonale 
estim^e (fp) que si ladite composante spectrale ne 

correspond pas d. la fr6quence la plus proche d'un multiple 
entier de la frequence tonale estim6e. 

^' Proc6d6 selon la revendication 4 ou 5, dans lequel 

les quantites respectivement soustraites des composantes 
spectrales (S^ du signal de parole correspondant aux 
frequences les plus proches des multiples entiers de la 
frequence tonale estimee (fp) sont sensiblement nulles. 

30 7. Proc6d6 selon I'une quelconque des revendications 

3 4 6, dans lequel, apres avoir estim6 la frequence tonale 
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(fp) du signal de parole sur une trame, on conditionne le 
signal de parole de la trame en le sur^chantillonnant k 
une frequence de sur6chantillonnage (fg) multiple de la 
frequence tonale estimee, et on calcule les composantes 
spectrales (S^ j) du signal de parole sur la trame" sur la 

base du signal conditionn6 (s' ) pour leur soustraire 
lesdites quantit6s. 

8. Precede selon la revendication 7, dans lequel on 

calcule des composantes spectrales (Sj^ f) du signal de 
parole en distribuant le signal conditionn6 (s') par blocs 
de N echantillons soumis a une transformation dans le 
domaine frequentiel, et dans lequel le rapport (p) entre 
la frequence de sur6chantillonnage (fg) et la frequence 
tonale estim6e est un diviseur du nombre N. 

15 9. Proc6d6 selon la revendication 7 ou 8, dans lequel 

on estime un degr6 de voisement (x) du signal de parole 
sur la trame 4 partir d'un calcul de I'entropie (H) de 
1' autocorrelation des composantes spectrales calcul6es sur 
la base du signal conditionn6. 

t 

20 10. Precede selon la revendication 9, dans lequel 
lesdites composantes spectrales (S^f) dont on calcule 
1' autocorrelation (H) sont celles calcul6es sur la base du 
signal conditionne (s' ) apr^s soustraction desdites 
premieres quantitfes. 

25 11. Proc6d6 selon la revendication 9 ou 10, dans 
lequel le degr6 de voisement (%) est mesur6 k partir une 
entropie normalisee H de la forme : 

N/2-1 
Z A{k) . log(A(Jt)] 



30 



log(W/2) 

oix N est le nombre d' 6chantillons utilis6s pour calcuier 
les composantes spectrales (S„^ ^ ) sur la base du signal 
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conditionne (s'), et A(k) est 1' autocorrelation normalisee 
dSfinie par : 

N/2-1 

~ W/2-1 W/2-1 
f=0 f=0 

^n,f cl^signant la composante spectrale de rang f calcul6e 
5 sur la base du signal conditionn6. 

12. Proc6de selon la revendication 11, dans lequel le 
calcul de la courbe de masquage (M^^ fait intervenir le 

degre de voisement (x) mesur6 par I'entropie normalis6e H. 



13. Proc6d6 selon I'une quelconque des revendications 
3 a 12, dans lequel, apr6s le traitement de chaque trame, 
on conserve, parmi les 6chantillons du signal de parole 
d6bruit6 fournis par ce traitement, un nombre 
d' echantillons (M) 6gal & un multiple entier de fois le 
rapport (Tp) entre la frequence d' 6chantillonnage (Fg) et 

15 la frequence tonale estim6e (fp) . 

14. Proc6d6 selon I'une quelconque des revendications 
3 S 12, dans lequel 1' estimation de la frSquence tonale du 
signal de parole sur une trame comporte les 6tapes 
suivantes : 

^° " °" estime des intervalles de temps (t^) entre 

deux ruptures cons6cutives (R) du signal attribuables d 
des fermetures de la glotte du locuteur intervenant 
pendant la dur§e de la trame, la frequence tonale estim^e 
6tant inversement proportiohnelle auxdits intervalles de 

25 temps ; 

- on interpole le signal de parole dans lesdits 
intervalles de temps, afin que le signal conditionn6 (s') 
resultant de cette interpolation pr6sente un intervalle de 
temps constant entre deux ruptures cons6cutives . 
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15. Procede seion la revendication 14, dans lequel, 
apres le traitement de chaque trame, on conserve, parmi 
les echantillons du signal de parole d6bruit6 fournis par 
ce traitement, un nombre d' 6chantillons (M) correspondant 
A un nombre entier d' intervalles de temps estim^s (t^) . 

16. Precede selon I'une quelconque des revendications 
prec6dentes, dans lequel on estime dans le domaine 
spectral des valeurs d'un rapport signal-sur-bruit que 
?r6sente le signal de parole (s) sur chaque trame, et dans 

iO lequel les parametres dont dependent les premieres 
quantit6s soustraites incluent les valeurs estim6es du 
rapport signal-sur-bruit, la premiere quantit6 soustraite 
de chaque composante spectrale (S„^f) du signal de parole 
sur la trame 6tant une fonction d6croissante de la valeur 

15 estimee correspondante du rapport signal-sur-bruit. 

17. Proc6d6 selon la revendication 16, dans lequel 
ladite fonction d6croit vers z6ro pour les valeurs les 
plus 61evees du rapport signal-sur-bruit 1 
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